Cuadro
de mandos (Servidor privado ULPGC)
Cuadro
de mandos (Servidor público shinyapps.io)
La economía europea se construyó sobre la promesa de la convergencia: la idea de que, con el tiempo y la integración de mercados, los niveles de vida y la riqueza de los estados miembros tenderían a igualarse. Sin embargo, tres décadas después, la realidad dibuja un mapa de velocidades divergentes. En este escenario, España, y muy particularmente la región de Canarias, se enfrenta a una paradoja persistente: a pesar de los esfuerzos de modernización y la integración en el mercado común, la brecha salarial con el núcleo económico europeo no solo no se cierra, sino que en muchos aspectos amenaza con cronificarse.
La narrativa popular, y a menudo política, ha tendido a simplificar este fenómeno atribuyéndolo a factores culturales o individuales, sugiriendo que la baja remuneración en el sur de Europa es consecuencia de una menor “cultura del esfuerzo” o de una ineficiencia intrínseca del trabajador. Este proyecto nace para desafiar esa noción mediante el análisis riguroso de los datos.
La presente memoria aborda esta problemática desde una perspectiva de Análisis Exploratorio de Datos y Visualización (AEDV), desentrañando la relación entre el coste laboral, las horas trabajadas y la estructura sectorial. El trabajo plantea que el determinante del salario no es la geografía ni el esfuerzo individual, sino la especialización productiva. A través de un viaje analítico que va de lo macro (Europa) a lo micro (Canarias), se busca demostrar que la estructura económica actúa como un “techo de cristal” que limita la generación de valor, independientemente de la intensidad del trabajo realizado.
La discusión económica sobre la disparidad de riqueza en Europa se fundamenta en este estudio a través de la relación entre dos variables críticas: las Horas Trabajadas (como medida del volumen de esfuerzo o intensidad laboral) y el Coste Laboral (como indicador de la valoración de mercado de dicho esfuerzo).
Históricamente, la literatura ha señalado una divergencia estructural entre el “Norte” y el “Sur” del continente. Mientras que las economías centrales han evolucionado hacia modelos donde se maximiza el valor por hora, permitiendo altos salarios sin aumentar la carga lectiva, los estudios precedentes sobre la economía española sugieren la persistencia de un modelo de crecimiento extensivo. Esto implica una dinámica económica basada en la acumulación de factor trabajo (más empleo, jornadas más largas y mayor presencialismo) que, paradójicamente, no logra traducirse en un aumento proporcional del valor unitario, manteniendo los costes laborales estancados en comparación con los estándares europeos.
Esta dinámica se ha visto agravada por dos hitos recientes que justifican la oportunidad de este análisis:
Las secuelas de la crisis financiera (2008-2014): Que provocaron una devaluación salarial interna en España como mecanismo para recuperar competitividad.
El shock asimétrico del COVID-19 (2020): Que distorsionó las estadísticas de costes laborales al reducir drásticamente las horas trabajadas mientras se sostenían las rentas mediante mecanismos públicos (ERTEs), generando un “falso positivo” de productividad en los datos que requiere ser depurado y analizado.
La importancia de este estudio es máxima en el momento actual, donde el coste de la vida no para de subir. Necesitamos entender por qué los sueldos en Canarias son bajos: ¿es porque producimos poco o porque nuestra economía está enfocada en los sectores equivocados? La justificación es clara: hace falta comprobar con datos si depender tanto del turismo y los servicios básicos actúa como un freno que nos impide alcanzar el nivel de riqueza del resto de Europa.
Aunque este proyecto nace en el contexto académico de la asignatura de Análisis Exploratorio de Datos y Visualización (AEDV), la elección de estos datasets responde a una inquietud vital como estudiante del Grado en Ciencia e Ingeniería de Datos.
La motivación principal es confrontar con datos una realidad que condiciona mi futuro inmediato: la narrativa generalizada de que, para prosperar en el sector tecnológico, es obligatorio emigrar a la península o al resto de Europa. He elegido analizar los costes laborales y la estructura sectorial para verificar empíricamente si esa “sentencia” es real. Necesito entender si la devaluación salarial en Canarias afecta también a perfiles de alta cualificación como el mío, o si es un problema exclusivo de otros sectores. En definitiva, este trabajo es una auditoría personal para descubrir si la estructura económica de las islas penaliza mi talento y me empuja inevitablemente a hacer las maletas.
El propósito principal de este trabajo es determinar, mediante un análisis de datos cuantitativo y visual, las causas estructurales de la baja remuneración en España y Canarias. Se busca demostrar la hipótesis de que la brecha salarial no es consecuencia de una menor intensidad laboral (horas trabajadas), sino de una especialización productiva en sectores de bajo valor añadido que limita estructuralmente la generación de riqueza.
Para alcanzar esta meta global, se plantean los siguientes objetivos específicos:
Analizar la eficiencia a escala europea: Establecer la correlación entre coste laboral y horas trabajadas en la UE-27 para validar si existe una relación inversa entre presencialismo y productividad.
Evaluar la evolución temporal en España: Examinar la trayectoria de los costes y horas desde el año 2000 para identificar el impacto de las crisis y verificar si existe convergencia o divergencia con los estándares europeos.
Mapear la desigualdad regional: Visualizar la distribución geográfica de la riqueza y el esfuerzo en España para identificar patrones territoriales y aislar el comportamiento de las Comunidades Autónomas.
Identificar el determinante sectorial: Desglosar el coste laboral por sectores económicos para demostrar cómo la composición del tejido productivo (p. ej. peso de la hostelería vs. servicios profesionales) condiciona el techo salarial de cada región.
Diagnosticar la brecha de Canarias: Cuantificar la diferencia salarial específica del archipiélago respecto a la media nacional y determinar en qué sectores se produce el mayor “desacople” de valor.
Este trabajo aporta una revisión crítica y basada en datos de la narrativa económica tradicional sobre la desigualdad regional en España. Más allá de la limpieza y tratamiento dels dataset, las principales contribuciones al área de estudio son:
Refutación del mito “Horas vs. Riqueza”: El estudio demuestra una correlación inversa entre esfuerzo y salario, aportando una nueva perspectiva: la baja renta en Canarias no se debe a la falta de intensidad laboral (presencialismo), sino a la baja capacidad estructural del modelo para generar valor.
Diagnóstico de la “Penalización Insular del Talento”: Se actualiza el conocimiento sobre la brecha salarial al revelar que afecta desproporcionadamente a los sectores de alta cualificación. Un profesional científico/tecnológico sufre mayor depreciación salarial en las islas que un trabajador de servicios, evidenciando una barrera estructural que incentiva la fuga de cerebros.
Evidencia de Desacople Económico: Los análisis temporales contradicen las teorías de convergencia, mostrando que la brecha Canarias-España se ha ensanchado tras las crisis de 2008 y 2020.
Cuadro de Mandos (Dashboard) como herramienta: La principal aportación técnica es la transformación de datos dispersos (Eurostat/INE) en un Dashboard Interactivo. Esta herramienta permite superar el análisis estático, facilitando la exploración dinámica de las tendencias y democratizando el acceso a información económica compleja.
Este proyecto no se queda solo en el análisis teórico, sino que conecta directamente con los problemas reales que la Agenda 2030 de la ONU busca resolver. Al usar datos para entender por qué existen estas desigualdades y por qué los salarios son bajos en Canarias, el trabajo aporta información útil para mejorar nuestra sociedad. A continuación, se muestra cómo se relaciona el estudio con cada objetivo:
| ODS | No procede | Bajo | Medio | Alto |
|---|---|---|---|---|
| 1 Fin de la Pobreza | X | |||
| 2 Hambre cero | X | |||
| 3 Salud y Bienestar | X | |||
| 4 Educación de calidad | X | |||
| 5 Igualdad de género | X | |||
| 6 Agua limpia y saneamiento | X | |||
| 7 Energía Asequible y no contaminante | X | |||
| 8 Trabajo decente y crecimiento económico | X | |||
| 9 Industria, Innovación e Infraestructuras | X | |||
| 10 Reducción de las desigualdades | X | |||
| 11 Ciudades y comunidades sostenibles | X | |||
| 12 Producción y consumo sostenibles | X | |||
| 13 Acción por el clima | X | |||
| 14 Vida submarina | X | |||
| 15 Vida de ecosistemas terrestres | X | |||
| 16 Paz, justicia e instituciones sólidas | X | |||
| 17 Alianzas para lograr objetivos | X |
A continuación, se justifica la relación identificada en la tabla anterior:
Impacto Alto: El Núcleo del Estudio (ODS 8 y 10) Estos objetivos representan el corazón de la tesis del proyecto:
ODS 8: Trabajo decente y crecimiento económico: Este es el objetivo con mayor vinculación. El proyecto ataca directamente la problemática de la precariedad salarial y la baja productividad. Al demostrar que el modelo actual se basa en un uso extensivo de horas con bajo retorno, el estudio aboga por una transformación hacia actividades de mayor valor añadido que permitan salarios dignos sin necesidad de aumentar la carga laboral.
ODS 10: Reducción de las desigualdades: El análisis geográfico y sectorial visibiliza la fractura territorial entre el Norte y el Sur de España, y específicamente el “desacople” de Canarias. Al identificar las causas estructurales (y no individuales) de esta brecha, el trabajo aporta la evidencia necesaria para diseñar políticas públicas que fomenten una convergencia real y reduzcan la desigualdad de ingresos entre regiones.
Impacto Medio: Consecuencias Directas (ODS 1, 3 y 9) Estos objetivos se ven afectados como consecuencia directa de los hallazgos económicos:
ODS 1: Fin de la pobreza: La persistencia de salarios bajos (analizada en los sectores bottom) es la causa principal de la figura del “trabajador pobre”. Entender la estructura salarial es el primer paso para erradicar la pobreza laboral.
ODS 9: Industria, innovación e infraestructura: El estudio concluye que la falta de especialización en sectores tecnológicos (TIC, Industria) es lo que lastra los salarios. Por tanto, promueve implícitamente la necesidad de reindustrializar y fomentar la innovación como motor de riqueza.
ODS 3: Salud y bienestar: Al refutar el mito de la pereza y demostrar que en Canarias se trabajan más horas que en Europa, el proyecto pone de relieve el impacto del presencialismo ineficiente sobre la salud mental y la conciliación familiar de los trabajadores.
Impacto Bajo/Transversal: Contexto y Transparencia El resto de objetivos (ODS 2, 11, 12, 16, 17) presentan una relación indirecta o instrumental. Destaca el ODS 16 (Paz, justicia e instituciones sólidas), al cual contribuye el proyecto mediante el ejercicio de transparencia de datos: al hacer accesible la información pública (Eurostat/INE) a través de un cuadro de mandos abierto, se fomenta una ciudadanía informada y se fortalecen las instituciones mediante la auditoría pública de la realidad económica.
El desarrollo técnico de este proyecto se fundamenta en el lenguaje R y el entorno RStudio. Esta plataforma ofrece grandes ventajas para el Análisis Exploratorio de Datos gracias a su potencia estadística y su capacidad nativa para el tratamiento de datos. Además, el uso de R Markdown (.Rmd) ha sido clave para integrar código, análisis y narrativa en un único flujo de trabajo, generando como resultado final una memoria en formato HTML totalmente reproducible.
Para la ejecución del proyecto, se han empleado las siguientes librerías:
Manipulación y Preparación de Datos: El
procesamiento se ha centralizado en el ecosistema
tidyverse. La librería dplyr ha sido el motor
principal para limpiar, transformar y calcular métricas complejas (como
brechas salariales y costes sectoriales), apoyada en readr
y eurostat para la ingesta eficiente de los datos
brutos.
Visualización y Narrativa Visual: Para construir
la historia visual se ha combinado la gramática de ggplot2
con librerías de interactividad:
plotly y highcharter: Para convertir
gráficos estáticos en visualizaciones dinámicas (zoom, tooltips) que
facilitan la exploración.
leaflet y geojsonio: Para la creación
de los mapas coropléticos interactivos (Actos I y III).
gganimate: Para visualizar la evolución temporal de
la eficiencia y los costes (Acto I).
Despliegue y Dashboarding: La presentación final
se estructura mediante flexdashboard y
shinydashboard, creando un cuadro de mandos profesional y
reactivo. Para su despliegue público, el archivo se aloja en el servidor
Shiny del Departamento de Ingeniería de Sistemas (DIS) de la
universidad, permitiendo su ejecución remota vía web sin necesidad de
instalación local.
Control de Versiones: Finalmente, para garantizar la integridad del código y facilitar el desarrollo iterativo, se ha utilizado Git junto con GitHub como repositorio remoto. Esto no solo ha servido para el control de versiones, sino para dar visibilidad pública al código fuente del proyecto una vez finalizado.
Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:
Diagrama metodología de desarrollo CRISP-DM
Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.
A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.
Para garantizar la idoneidad de los datos respecto a los objetivos de la asignatura y la capacidad de cómputo disponible, se estableció un protocolo de búsqueda y selección estructurado en tres fases:
Partiendo del repositorio de fuentes oficiales proporcionado por la docencia, se aplicó un primer filtro basado en requisitos técnicos y dimensionales. Se priorizaron conjuntos de datos con una extensión temporal significativa (series temporales largas) y un volumen de observaciones manejable pero suficiente para el análisis profundo (rango objetivo entre 10 mil y 10 mill. registros). Este criterio aseguró un equilibrio entre la riqueza de información y la viabilidad del procesamiento computacional.
Sobre los datasets resultantes, se realizó una exploración cualitativa asistida por herramientas de Inteligencia Artificial para analizar rápidamente los metadatos y descripciones. El objetivo fue identificar temáticas con alto potencial narrativo y relevancia socioeconómica. Se cruzaron las características de los candidatos con los contenidos teóricos del manual de la asignatura, buscando variables que permitieran aplicar las técnicas de visualización avanzadas (mapas, series temporales, comparativas categóricas) exigidas en el proyecto.
Tras la preselección de un primer candidato y su posterior descarte
por no ajustarse estrictamente a la totalidad de los requisitos de la
rúbrica (específicamente en la granularidad de las variables), se
procedió a la elección final del dataset nama_10r_2lp10.
Este conjunto de datos superó la validación final al cumplir con todos
los criterios: estructura tidy, presencia de variables categóricas y
numéricas, desglose geográfico (NUTS 2) y una serie temporal completa
(1995-2023), permitiendo el análisis multinivel (Europa-España-Canarias)
propuesto.
Los datos de nuestro dataset están organizados de forma tidy. Los variables categóricas que existen, su significado, y sus valores posibles son:
freq: Frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.
nace_r2: Rama de actividad económica. Se divide
según la clasificación NACE Rev. 2. Los códigos pueden corresponder
a una sección concreta (ej. A, C, F), a un rango de secciones
consecutivas indicado con guion (ej. B-E, G-I), o a agrupaciones
específicas de varias secciones señaladas con guion bajo (ej.
M_N).
Valores posibles:
na_item: Tipo de indicador económico relacionado con los costes laborales y las horas trabajadas.
unit: Unidad de medida de los valores registrados para cada indicador.
geo: Regiones para las que existen observaciones.
TIME_PERIOD: Fechas de las observaciones. Comprende datos desde 1995 hasta 2023, con observaciones anuales. La cantidad de registros por año varía, siendo especialmente elevada entre 2000 y 2021, destacando los años 2016 y 2020 como los que concentran más observaciones. Cabe destacar que en 2023 el número de registros disminuye significativamente respecto a años anteriores.
## COLUMNA: freq
## freq N.Observ full_name
## [1,] A 432832 Annual
## COLUMNA: nace_r2
## nace_r2 N.Observ full_name
## [1,] TOTAL 72411 Total - all NACE activities
## [2,] O-U 26963 Public administration and defence; compu..
## [3,] O-Q 26756 Public administration, defence, educatio..
## [4,] B-E 25989 Industry (except construction)
## [5,] K-N 25785 Financial and insurance activities; real..
## [6,] F 25713 Construction
## [7,] M_N 25584 Professional, scientific and technical a..
## [8,] A 25569 Agriculture, forestry and fishing
## [9,] C 25569 Manufacturing
## [10,] G-J 25569 Wholesale and retail trade; transport; a..
## [11,] R-U 25452 Arts, entertainment and recreation; othe..
## [12,] G-I 25368 Wholesale and retail trade, transport, a..
## [13,] J 25368 Information and communication
## [14,] K 25368 Financial and insurance activities
## [15,] L 25368 Real estate activities
## COLUMNA: na_item
## na_item N.Observ full_name
## [1,] D1_SAL_HW 387510 Compensation of employees per hour worke..
## [2,] D1_SAL_PER 27607 Compensation per employee
## [3,] HW_EMP 17715 Hours worked per employed person
## COLUMNA: unit
## unit N.Observ full_name
## [1,] EUR 139229 Euro
## [2,] NAC 139229 National currency
## [3,] PC_EU27_2020_MEUR_CP 136659 Percentage of EU27 (from 2020) total (ba..
## [4,] HW 9053 Hours worked
## [5,] PCH_PRE 8662 Percentage change on previous period
##
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
## NUTS Number of Regions
## [1,] 0 29
## [2,] 1 95
## [3,] 2 249
## [4,] EU27_2020 1
## [5,] OTHERS 20
Observamos que el tamaño de las series temporales varía entre 1 y 29 años, siendo el 90% de las series con más de 22 años.
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 1 22 23 23 23 24 29
Observamos que, tanto para España como para Canarias, el nº de
observaciones supera el p75 de la distribución (1199 >
1159)
Percentiles de la distribución del nº de observaciones por regiones
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 69 1002 1128 1149 1159 1199 1369
Nº de observaciones en España/Canarias
## # A tibble: 3 × 3
## geo full_name N.Observ
## <chr> <chr> <int>
## 1 ES Spain 1199
## 2 ES7 Canarias 1199
## 3 ES70 Canarias 1199
El dataset presenta 50 combinaciones únicas de variables categóricas
(freq, nace_r2, na_item,
unit), cumpliendo el criterio mínimo de tener al menos 5
atributos combinados con un número relativamente alto de observaciones
(≈8600 observ.).
## # A tibble: 50 × 7
## # Groups: freq, nace_r2, na_item [17]
## freq nace_r2 na_item unit N.observ init.date end.date
## <chr> <chr> <chr> <chr> <int> <dbl> <dbl>
## 1 A TOTAL D1_SAL_PER EUR 9299 1995 2023
## 2 A TOTAL D1_SAL_PER NAC 9299 1995 2023
## 3 A TOTAL D1_SAL_HW EUR 9083 1995 2023
## 4 A TOTAL D1_SAL_HW NAC 9083 1995 2023
## 5 A TOTAL HW_EMP HW 9053 1995 2023
## 6 A O-U D1_SAL_HW EUR 9041 1995 2023
## 7 A O-U D1_SAL_HW NAC 9041 1995 2023
## 8 A TOTAL D1_SAL_PER PC_EU27_2020_MEUR_CP 9009 2000 2023
## 9 A O-Q D1_SAL_HW EUR 8972 1995 2023
## 10 A O-Q D1_SAL_HW NAC 8972 1995 2023
## 11 A TOTAL D1_SAL_HW PC_EU27_2020_MEUR_CP 8923 2000 2023
## 12 A O-U D1_SAL_HW PC_EU27_2020_MEUR_CP 8881 2000 2023
## 13 A O-Q D1_SAL_HW PC_EU27_2020_MEUR_CP 8812 2000 2023
## 14 A B-E D1_SAL_HW EUR 8713 1995 2023
## 15 A B-E D1_SAL_HW NAC 8713 1995 2023
## 16 A TOTAL HW_EMP PCH_PRE 8662 1996 2023
## 17 A K-N D1_SAL_HW EUR 8645 1995 2023
## 18 A K-N D1_SAL_HW NAC 8645 1995 2023
## 19 A F D1_SAL_HW EUR 8621 1995 2023
## 20 A F D1_SAL_HW NAC 8621 1995 2023
## 21 A M_N D1_SAL_HW EUR 8578 1995 2023
## 22 A M_N D1_SAL_HW NAC 8578 1995 2023
## 23 A A D1_SAL_HW EUR 8573 1995 2023
## 24 A A D1_SAL_HW NAC 8573 1995 2023
## 25 A C D1_SAL_HW EUR 8573 1995 2023
## 26 A C D1_SAL_HW NAC 8573 1995 2023
## 27 A G-J D1_SAL_HW EUR 8573 1995 2023
## 28 A G-J D1_SAL_HW NAC 8573 1995 2023
## 29 A B-E D1_SAL_HW PC_EU27_2020_MEUR_CP 8563 2000 2023
## 30 A R-U D1_SAL_HW EUR 8534 1995 2023
## 31 A R-U D1_SAL_HW NAC 8534 1995 2023
## 32 A G-I D1_SAL_HW EUR 8506 1995 2023
## 33 A G-I D1_SAL_HW NAC 8506 1995 2023
## 34 A J D1_SAL_HW EUR 8506 1995 2023
## 35 A J D1_SAL_HW NAC 8506 1995 2023
## 36 A K D1_SAL_HW EUR 8506 1995 2023
## 37 A K D1_SAL_HW NAC 8506 1995 2023
## 38 A L D1_SAL_HW EUR 8506 1995 2023
## 39 A L D1_SAL_HW NAC 8506 1995 2023
## 40 A K-N D1_SAL_HW PC_EU27_2020_MEUR_CP 8495 2000 2023
## 41 A F D1_SAL_HW PC_EU27_2020_MEUR_CP 8471 2000 2023
## 42 A M_N D1_SAL_HW PC_EU27_2020_MEUR_CP 8428 2000 2023
## 43 A A D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 44 A C D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 45 A G-J D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 46 A R-U D1_SAL_HW PC_EU27_2020_MEUR_CP 8384 2000 2023
## 47 A G-I D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 48 A J D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 49 A K D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 50 A L D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
Observamos que los datos se mantienen constantes desde el año 2000 hasta el 2023, registrando valores más altos en periodos recientes en comparación con los antiguos.
Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)
El conjunto de datos original (nama_10r_2lp10)
presentaba una estructura tidy pero requería una serie de
transformaciones para garantizar su calidad y facilitar el análisis
exploratorio. Se llevó a cabo un proceso de limpieza y enriquecimiento
estructurado en las siguientes fases:
Se eliminaron variables redundantes o carentes de varianza
informativa. Concretamente, se descartó la columna freq,
dado que presenta un valor único (“A”) para todas las observaciones,
indicando la periodicidad anual de la serie completa.
Para mejorar la legibilidad del código y la manipulación de los datos, se renombraron las variables principales siguiendo un esquema semántico más claro:
nace_r2 \(\rightarrow\) sectorna_item \(\rightarrow\) itemTIME_PERIOD \(\rightarrow\) yearSe integró información geográfica y descriptiva externa para dotar de contexto a los códigos del dataset original:
urostac_real_nuts). Esto permitió incorporar las
columnas NUTS (nivel jerárquico) y full_name
(nombre oficial de la región), claves para el análisis espacial.sector_name, que recodifica los códigos técnicos NACE
Rev. 2 (ej. “O-U”) en descripciones en lenguaje natural (ej. “Adm.
pública, educación y salud”), facilitando la interpretación visual de
los gráficos.Tras el procesado, el dataset resultante consta de las siguientes variables dimensionadas para el análisis:
geo (Código), NUTS
(Nivel 0, 1, 2), full_name (Etiqueta).year (Serie 1995-2023).sector y
sector_name (Rama de actividad).item (Indicador), unit
(Unidad de medida) y values (Valor numérico). Es importante
destacar que el Coste laboral por hora trabajada es el único indicador
que ofrece granularidad completa por sector; el resto de métricas (Coste
por persona y Horas trabajadas) se presentan únicamente como valores
agregados (Total)..El eje central de este estudio es el Coste Laboral (representado en las gráficas como Coste por hora o Coste por empleado). Es fundamental aclarar que esta métrica refleja la perspectiva del empleador, no el bolsillo del empleado.
Representa el coste total en el que incurre una empresa para emplear mano de obra. Esto abarca no solo la remuneración bruta (salarios y sueldos), sino también los costes no salariales, como las contribuciones sociales a cargo del empleador, impuestos laborales y otros gastos derivados.
No debe confundirse con el salario neto que percibe el trabajador en su cuenta bancaria.
El objetivo de esta fase inicial no es solo describir los datos, sino comprender por qué España ocupa su posición actual. Para diagnosticar la realidad salarial en Canarias y el resto del país, es necesario ampliar el foco y observar primero el contexto macroeconómico. En este sentido, Europa actúa como un marco de referencia esencial: nos permite evaluar nuestro desempeño contrastándolo no con ideales teóricos, sino con la realidad tangible de los países de nuestro entorno.
La narrativa popular a menudo asocia la baja remuneración con una supuesta “falta de cultura del esfuerzo”. Sin embargo, los datos sugieren una paradoja fundamental que será el hilo conductor de este capítulo: en Europa, trabajar más horas no significa generar más riqueza; a menudo, significa lo contrario.
A través de las siguientes visualizaciones, estableceremos la “Tesis
del presencialismo”: demostraremos que existe una correlación negativa
entre las horas trabajadas y el coste por hora, y ubicaremos a España en
este tablero de juego antes de hacer zoom en sus regiones.
Para comprender la posición actual de España, primero debemos analizar la inercia histórica. ¿Cómo han evolucionado los costes laborales en las últimas dos décadas?
Esta visualización desglosa la evolución del coste por hora trabajada
(2000-2022) mediante una serie de gráficos facetados.
Lo primero que salta a la vista es una tendencia de crecimiento
estructural unánime en toda Europa, pero los ejes verticales revelan
rápidamente la trampa de la escala: el “techo” histórico de España
(apenas superando los 25€) equivale al punto de partida de potencias
como Dinamarca o Luxemburgo, confirmando que navegamos en carriles
paralelos sin una convergencia real. Asimismo, prácticamente todas las
gráficas exhiben la cicatriz del 2020, un pico artificial provocado por
el desplome de horas durante la pandemia, y no por un aumento real de la
productividad.
Si la gráfica anterior nos mostraba la velocidad de crecimiento,
este mapa congela la imagen en 2022 para visualizar la distancia real en
términos de riqueza y costes laborales por empleado.
El gradiente de color revela inmediatamente una frontera económica nítida: un “núcleo duro” europeo (Escandinavia, Benelux, Alemania, Francia) teñido de tonos cálidos que indican altos costes salariales, frente a una periferia sur y este que se diluye en tonos amarillos. En este tablero, España se encuentra en una incómoda “tierra de nadie”: nuestros costes son superiores a los de Europa del Este, lo que nos impide competir por mano de obra barata, pero seguimos lejos de los estándares del norte, impidiéndonos competir por alto valor añadido.
El mapa confirma el síntoma: cobramos significativamente menos
que nuestros vecinos del norte. Ante esta realidad, surge
inevitablemente el prejuicio cultural y la pregunta del millón:
¿Cobramos menos porque trabajamos menos? Para validar o descartar este
mito, necesitamos mirar las horas trabajadas en promedio por
empleado.
Al analizar la carga laboral semanal promedio, los datos desmontan radicalmente el estereotipo de la “pereza del sur”. El gráfico de barras ordena a los países por horas trabajadas y el resultado es contraintuitivo: las economías más ricas y productivas (Alemania, Dinamarca, Países Bajos) ocupan la parte superior del gráfico con las jornadas más cortas, rondando las 26-28 horas semanales promedio. Por el contrario, los países con menores salarios (Grecia, Polonia, Croacia) presentan las jornadas más extensas, rozando las 40 horas. España, marcada por la línea roja discontinua, se sitúa por encima de la media europea en presencialismo, con una media en los últimos 5 años de 31.5 horas semanales. La conclusión es lapidaria: el esfuerzo en horas no garantiza la riqueza; de hecho, en Europa, parece correlacionar con lo contrario.
Tenemos dos piezas del puzle que parecen contradictorias: los
países ricos trabajan menos horas, y los países que trabajan más horas
son más pobres. ¿Qué ocurre si cruzamos estas dos variables en un solo
gráfico para ver su interacción directa?
Esta visualización es la piedra angular del capítulo. Para interpretarla correctamente, debemos fijarnos en la dirección y el volumen: cuanto más arriba se sitúe un país, mayor es la remuneración por hora (eje Y), y cuanto más a la izquierda, menos horas se trabajan al año (eje X). Además, el tamaño de cada esfera es proporcional a ese coste: una bola grande indica un alto valor por hora, mientras que una pequeña señala precariedad.
Al cruzar estas variables, emerge una clara correlación negativa: los países se alinean en una pendiente descendente. Las naciones más eficientes, como Luxemburgo o Dinamarca, se agrupan en la esquina superior izquierda (bolas grandes y pocas horas), mientras que a medida que nos desplazamos hacia la derecha, el valor generado cae y las esferas se hacen más pequeñas. España (la esfera morada en la zona inferior) queda relegada al cuadrante de “baja eficiencia”: muchas horas de trabajo para un retorno por hora bajo. Finalmente, la animación temporal revela cómo el COVID-19 provocó un salto generalizado hacia la izquierda en 2020, una anomalía de reducción forzosa de horas que no debe confundirse con un aumento estructural de la productividad.
Ya hemos demostrado que el problema no es la cantidad de
trabajo, sino el valor que generamos en ese tiempo. Pero, ¿es este bajo
coste un problema generalizado en toda la economía o hay sectores que se
salvan?
Para afinar el diagnóstico europeo, este diagrama de caja nos permite ver la “radiografía interna” de la desigualdad en cada país, mostrando no solo el promedio, sino la dispersión de los costes laborales. Mientras países como Luxemburgo o Dinamarca exhiben cajas altas y alargadas —indicando que tienen sectores capaces de alcanzar salarios muy elevados—, España muestra una caja mucho más comprimida y situada en la parte baja de la escala. Esto señala que nuestro “techo” salarial es estructuralmente bajo; incluso nuestros tramos mejor remunerados apenas compiten con los promedios de las potencias del norte.
Sin embargo, el boxplot tiene una limitación: agrupa toda la
economía en una sola “caja”, ocultando los detalles específicos. Al ver
esa compresión en los salarios españoles, surge la duda: ¿Es que pagamos
mal en todos los sitios, o es que tenemos pocos sectores de alto valor?
Para responder a esto, necesitamos desplegar esa caja y mirar sector por
sector.
Si el diagrama de cajas nos sugería un problema general, este mapa de calor confirma que la desventaja es estructural y relativa. Para este análisis, hemos utilizado un índice normalizado donde 100 representa la media de la UE-27. La interpretación es directa: cualquier valor superior a 100 indica que el sector rinde por encima del estándar europeo, mientras que valores inferiores señalan una desventaja competitiva.
El resultado es un degradado vertical implacable: mientras las columnas de la izquierda (Luxemburgo, Dinamarca) acumulan valores muy superiores a 100, el dato más revelador para nuestro estudio es que España presenta valores inferiores a 100 en prácticamente toda la matriz. Esto significa que no tenemos ningún sector que actúe como “punta de lanza” real; incluso nuestras industrias de alto valor añadido operan sistemáticamente por debajo del promedio continental en términos de coste y valoración relativa.
Europa nos ha enseñado que trabajar más horas no es la solución.
España está atrapada en un modelo de alto presencialismo y bajo valor
añadido. Para entender cómo hemos llegado aquí y si hay esperanza de
cambio, necesitamos dejar el mapa europeo y hacer zoom sobre nuestra
propia historia reciente.
Dejamos el mapa europeo con una conclusión amarga: España trabaja mucho para generar poco valor relativo. Pero, ¿siempre ha sido así? ¿Hemos mejorado con el tiempo o estamos estancados? Para responder a esto, dejamos de mirar a los vecinos y colocamos la lupa sobre la economía española para analizar su evolución en las últimas dos décadas. Lo que encontramos no es una línea de crecimiento sostenido, sino un proceso marcado por la volatilidad y dos caídas económicas.
Esta serie temporal representa la variación porcentual del coste
laboral año tras año, y actúa como un sismógrafo de nuestra historia
reciente. Lejos de la estabilidad deseada, vemos una montaña rusa.
Observamos el optimismo de la burbuja inmobiliaria (2000-2008) con
crecimientos cercanos al 4-5%, seguido del desplome tras la crisis
financiera, tocando fondo con valores negativos en 2012 (año de la
reforma laboral y los recortes).
Sin embargo, el dato más engañoso aparece al final: ese pico vertical en
2020 que roza el 6% de “crecimiento”. No nos dejemos engañar; al igual
que vimos en Europa, esto no es riqueza real. Es una ilusión estadística
provocada por la pandemia: el coste unitario subió porque las horas
trabajadas se desplomaron mientras los mecanismos de protección (ERTEs)
sostenían las rentas. Esta volatilidad nos indica que nuestro modelo
reacciona a los golpes externos con virulencia, pero, ¿hacia dónde nos
ha llevado todo este movimiento?
Si convertimos estos altibajos en una trayectoria de movimiento,
¿hemos avanzado hacia la eficiencia europea (arriba e izquierda) o
simplemente estamos dando vueltas en círculos?
Este gráfico es quizás la prueba más contundente de la memoria. Aquí trazamos el viaje de la economía española desde 2000 hasta 2023, conectando cada año con el siguiente. El eje X representa las horas trabajadas (presencialismo) y el eje Y el coste laboral (valor/riqueza).
La forma resultante recuerda a un caracol o un muelle que se contrae. Partimos en el 2000 (esquina inferior derecha) con muchas horas y muy poco valor. A lo largo de los años, nos hemos desplazado hacia la izquierda, reduciendo la jornada media anual de unas 1.750 horas a cerca de 1.630. Sin embargo, el movimiento vertical —el aumento de riqueza— ha sido penosamente lento. La “cicatriz” del 2020 es visible como un bucle errático en la parte superior (puntos amarillos), donde saltamos hacia la izquierda y arriba artificialmente, para luego corregir. La conclusión es dura: España ha reducido el esfuerzo (horas), pero no ha logrado disparar la eficiencia (valor). Nos movemos, pero no despegamos.
Si el “caracol” anterior nos mostraba un crecimiento promedio
lento, este gráfico de líneas nos revela el culpable: la media española
es una ficción que esconde una economía de doble velocidad. Al desglosar
la evolución del coste por hora trabajada sector por sector, observamos
una divergencia brutal.
En la parte superior, sectores como Finanzas (línea verde oscura superior) y las Industrias Extractivas/Energía han escalado posiciones con fuerza, alcanzando costes por hora superiores a los 40€, cifras que empiezan a competir con Europa. Sin embargo, la gravedad de la estructura productiva española se hace evidente en la parte inferior de la gráfica: una maraña de líneas planas que agrupan a sectores masivos como la Hostelería (Comercio y alojamiento) y la Agricultura. Estos sectores apenas han logrado despegar de la franja de los 10€ - 15€ por hora en más de dos décadas.
La conclusión es clara: España no tiene un problema único de productividad; tiene sectores “locomotora” que tiran hacia arriba, pero están lastrados por “vagones” muy pesados de bajo valor añadido que mantienen el promedio nacional estancado.
El análisis de nuestra historia reciente confirma que las
cicatrices de las crisis no se han curado igual para todos. Mientras
algunos sectores han logrado modernizarse y encarecer su hora de
trabajo, gran parte del tejido productivo sigue atrapado en costes
bajos. Hemos visto la trayectoria temporal (el estancamiento) y la
culpable sectorial (la divergencia).
Pero, ¿dónde se ubican físicamente estos sectores? ¿Están distribuidos
uniformemente por el país o hemos creado zonas de riqueza y pobreza?
Para responder a esto, debemos romper el mapa nacional.
Al descender del nivel nacional al regional, confirmamos que España no es una economía monolítica, sino un puzle de realidades divergentes. Si en Europa vimos una brecha Norte-Sur, es crucial verificar si ese patrón se replica dentro de nuestras fronteras. Para ello, vamos a confrontar directamente dos variables que la narrativa popular suele unir: lo que ganamos (riqueza) frente a lo que trabajamos (esfuerzo).
Al colocar estos dos mapas frente a frente, emerge un patrón revelador: existe una correlación visual inversa. Lo que es oscuro en un mapa, tiende a ser claro en el otro, y viceversa.
El Mapa de la Riqueza (Izquierda): El cuadrante noreste y Madrid aparecen en tonos oscuros y rojizos, señalando las zonas de mayor coste laboral y riqueza.
El Mapa del Esfuerzo (Derecha): Justo esas mismas zonas “ricas” (Madrid, País Vasco) se tiñen aquí de tonos más claros (amarillos), indicando jornadas laborales más cortas. Por el contrario, las zonas que en el mapa de riqueza aparecían pálidas (Castilla-La Mancha, Murcia, Extremadura), aquí se oscurecen hacia el rojo, indicando jornadas más largas.
La imagen es contraintuitiva pero clara: las regiones más ricas son las que menos horas trabajan. Madrid, la “isla de calor” salarial, es una zona “fría” en horas. En cambio, regiones con menor renta como Canarias o el sur peninsular presentan colores más intensos en esfuerzo. Esto demuestra que la pobreza relativa no es fruto de la pereza; de hecho, las regiones con menor coste laboral tienden a compensar su menor productividad estructural con un mayor presencialismo.
Este diagrama de cajas desagrega la realidad nacional por Comunidades Autónomas, permitiéndonos observar la dispersión real de los salarios dentro de cada territorio. La jerarquía es clara y dolorosa.
La Élite Salarial: En la parte izquierda, Comunidad de Madrid, País Vasco y Navarra lideran el ranking con las medianas más altas. Pero lo más relevante es la altura de sus cajas y los “bigotes” superiores. Fijaos en la nube de puntos negros (outliers) sobre Madrid: indican que existe un segmento del mercado laboral capaz de alcanzar costes muy superiores a los 40€/hora. Allí, el ascensor social hacia salarios altos funciona.
El Vagón de Cola: En el extremo derecho, encontramos a Extremadura, Murcia y Canarias. En el caso específico de Canarias, la caja no solo está situada abajo (mediana rondando los 16€), sino que está “comprimida”. A diferencia de Madrid, Canarias apenas tiene dispersión hacia arriba; sus outliers son escasos. Esto confirma la existencia de un “techo de cristal regional”. En Canarias, la estructura económica comprime los salarios en una franja estrecha y baja. Incluso los perfiles mejor pagados de las islas tienen dificultades para superar la mediana de las comunidades con mejor remuneración.
El análisis geográfico ha sido devastador para el prejuicio del
esfuerzo. Hemos visto una inversión de roles: las zonas ricas trabajan
menos y las zonas “pobres” trabajan más. Canarias se esfuerza tanto o
más que el norte, pero su estructura actúa como una losa que impide que
ese tiempo se traduzca en valor.
Si trabajamos más horas para generar menos riqueza y chocamos con un techo salarial bajo… la causa no puede ser geográfica, tiene que ser sectorial. ¿En qué trabajamos los canarios para que nuestro esfuerzo valga tan poco?
Hemos recorrido un largo camino para descartar culpables. Sabemos que
no es un problema de “ser españoles” (Europa nos mostró nuestra
ineficiencia relativa), ni de las crisis (que afectaron a todos), ni
siquiera de vivir en el sur o en una isla (el mapa de esfuerzo nos
absolvió).
Si trabajamos prácticamente las mismas horas que en el norte pero
generamos la mitad de riqueza, la única variable que nos queda es la
naturaleza del trabajo. El mercado no remunera el
esfuerzo bruto, sino el valor añadido y la escalabilidad. Existen
actividades donde la tecnología actúa como una palanca que multiplica
exponencialmente el rendimiento de cada hora invertida, mientras que
otros sectores enfrentan límites estructurales naturales, donde la
productividad está acotada por la pura presencia física,
independientemente de la dedicación del trabajador. En este capítulo,
abrimos la “caja negra” de la economía para demostrar que la desigualdad
regional no es más que desigualdad sectorial disfrazada de
geografía.
Para entender el problema, analicemos la estructura de precios de la economía española. Este gráfico de anillo no representa el volumen de empleo ni el PIB, sino el peso relativo del coste por hora de cada sector en el conjunto de la oferta económica. Es decir, visualiza qué sectores son “caros” y cuáles “baratos”.
Observamos una clara jerarquía de valor. El sector Finanzas (11.5%) y la Información y Comunicación (8.85%) ocupan una porción significativa del gráfico. Esto indica que son actividades con un alto coste unitario: su hora de trabajo se cotiza muy por encima de la media. En contraposición, sectores masivos como Agricultura (2.57%), Hostelería (Comercio y alojamiento, 6.2%) o Artes (5.01%) tienen un peso relativo mucho menor. Esto revela que su hora de trabajo aporta un valor monetario unitario mucho más bajo al total nacional.
Sin embargo, este gráfico nos muestra una “España media” que no
existe en la realidad. La pregunta clave es: ¿Están estas “porciones
caras” del anillo repartidas equitativamente por el país, o están
acaparadas por unas pocas regiones? Para descubrirlo, necesitamos
desenrollar este gráfico y proyectar el coste de cada sector sobre el
mapa de las Comunidades Autónomas.
Esta visualización actúa como el diagnóstico definitivo del proyecto. Al cruzar cada comunidad autónoma con sus sectores productivos, el código de color revela una jerarquía implacable: la fila de Finanzas cruza el mapa como una viga maestra de azul intenso (especialmente en Madrid), mientras que actividades como Comercio y alojamiento o Agricultura se diluyen en tonos pálidos casi idénticos en todo el territorio. El problema de Canarias se hace aquí evidente y visual; no es que seamos menos productivos por ser isleños, es que nuestra economía habita masivamente en esas filas inferiores de color blanco (“los sectores pálidos”), mientras que las regiones ricas basan su liderazgo en acumular fichas en los sectores “azules” de alto valor añadido. La desigualdad geográfica es, en esencia, una desigualdad de especialización.
Ya tenemos al culpable. No es el mapa, es el menú. España sufre
de una estructura donde los sectores de alto valor (Finanzas,
Tecnología) actúan como islas de riqueza concentradas en Madrid y el
Norte, mientras que territorios como Canarias funcionan como enormes
plataformas de servicios de bajo coste (Hostelería o Agricultura, entre
otros).
La pregunta final es inevitable. Si ya sabemos que el sector es el
destino… ¿Está Canarias condenada por su especialización turística? ¿Es
posible tener un sector turístico eficiente y bien pagado, o estamos
atrapados en una trampa de pobreza estructural?
Hemos viajado desde los datos macroeconómicos del continente hasta la estructura sectorial nacional. Ahora, aterrizamos en el “paciente cero” de nuestra tesis: Canarias. Si nuestra hipótesis es correcta —que el problema es el modelo productivo y no el trabajador—, los datos deberían mostrar una región que se esfuerza tanto o más que Europa, pero cuyo retorno económico se estanca, desacoplándose de los estándares de bienestar continentales.
Comenzamos el juicio final presentando la prueba definitiva de la defensa. Este gráfico compara la evolución de las horas trabajadas por empleado en Canarias (rojo), España (azul) y la media de la Unión Europea (verde).
El resultado destruye el mito de la “pereza meridional”. Históricamente, Canarias ha trabajado sistemáticamente más horas que la media europea. Mientras la línea verde de la UE muestra una tendencia descendente clara hacia la eficiencia (trabajar menos horas), la línea roja de Canarias se mantiene por encima, resistiéndose a bajar de las 1.650 horas anuales (salvo el shock del COVID en 2020). Por tanto, concluimos que el trabajador canario dedica más tiempo a su empleo que el europeo promedio. La pobreza salarial no es fruto de la falta de dedicación.
Descartado el esfuerzo, miramos el resultado monetario. Este gráfico de área visualiza la distancia entre ser empleado en la Península (azul) y serlo en las Islas (rojo).
La imagen revela un desacople progresivo. A principios de los 2000, las líneas caminaban paralelas. Sin embargo, tras la crisis financiera de 2008, la “boca” del gráfico se abre dramáticamente. Mientras España recupera tracción y supera los 30.000€ de coste por empleado, Canarias se queda rezagada, ampliando la zona naranja (la brecha) año tras año. Esto confirma que la convergencia regional se ha roto: la insularidad económica pesa cada vez más.
Transición: Ya sabemos que perdemos contra España. Pero, si levantamos la vista y nos comparamos con el estándar europeo (“Gold Standard”), ¿en qué sectores estamos perdiendo realmente?
Ya sabemos que perdemos contra España. Pero, si levantamos la
vista y nos comparamos con el estándar europeo (“Gold Standard”), ¿en
qué sectores estamos perdiendo realmente?
Aquí es donde la realidad se torna severa. Al añadir la línea de la Media UE (verde) a nuestras series temporales, descubrimos una “Doble Velocidad” estructural.
Sectores de Convergencia (Bajo Valor): En sectores como Hostelería (Comercio y alojamiento) o Construcción, las tres líneas viajan relativamente juntas. Canarias (rojo) compite de tú a tú en costes con Europa. Somos competitivos siendo “baratos”.
Sectores de Divergencia (Alto Valor): La tragedia aparece en los sectores que definen el futuro. Si nos fijamos en Información y Comunicación, Finanzas o Actividades Profesionales. La línea verde (UE) se dispara hacia arriba con una pendiente agresiva, indicando una alta generación de valor. España (azul) intenta seguirla a distancia. Pero Canarias (rojo) se queda plana o crece muy lentamente. Por tanto En los sectores tecnológicos y profesionales, Canarias no está convergiendo; Europa se está escapando a una velocidad inalcanzable para nuestro modelo actual.
Antes de cerrar, hacemos zoom en la fricción interna. Este gráfico de mancuernas mide la distancia salarial exacta entre trabajar en las islas o en la península.
Confirmamos la “penalización insular del talento”: las líneas grises son mucho más largas en los sectores cualificados (Información y comunicación, Industria, Finanzas) que en los básicos (Agricultura, Artes). Esto explica la fuga de talento nacional: un ingeniero informático canario tiene un incentivo monetario enorme para mudarse a Madrid (la línea gris es muy larga), mientras que para un trabajador del sector primario la diferencia es mínima.
Cerramos el estudio con esta “foto fija” del valor en 2023. Comparamos los 4 sectores peor pagados (contorno gris) y 4 mejor pagados (contorno negro) de Canarias (rojo); contra España (azul) y Europa (verde).
Al analizar la altura de las barras, el patrón que emerge es revelador. En los sectores vinculados a la Administración Pública, Educación y Salud, observamos una convergencia sorprendente: la barra roja de Canarias roza la altura de la media europea (barra verde), actuando el Estado como un escudo que iguala los salarios.
Sin embargo, el abismo se abre drásticamente en los sectores privados impulsados por el talento, independientemente de si están en el grupo de menor remuneración o mayor. El contraste más doloroso lo encontramos en Actividades Profesionales y Científicas e Información y Comunicación. En ambos casos, la barra verde de la UE se dispara muy por encima de la canaria. Esto confirma que allí donde el salario depende de la competitividad tecnológica y el mercado global, Canarias sufre su mayor desconexión con Europa, mientras que el empleo público maquilla las estadísticas generales.
Lo más impactante es la degradación del valor del conocimiento: un sector clave como Profesionales y científicas, que en Europa supera holgadamente los 30€/hora, en Canarias aparece hundido en el grupo de los peor pagados, con una barra roja (~19€) que apenas se despega de los servicios básicos. La brecha aquí es devastadora: el mercado local está pagando el talento técnico casi a la mitad de su precio europeo.
Tras la exploración visual de los datos, en esta fase aplicamos técnicas matemáticas para cuantificar las relaciones observadas y proyectar tendencias futuras. El objetivo no es solo describir qué ocurre, sino validar matemáticamente por qué ocurre y qué ocurrirá si el modelo actual persiste.
Para confirmar la “Paradoja de la Eficiencia” detectada en el Acto I, hemos aplicado un modelo de Regresión Lineal Simple sobre el conjunto de datos de países europeos (1995-2023).
Una vez descartadas las horas como factor de riqueza, utilizamos
técnicas multivariantes para identificar qué sectores actúan como
“motores” y cuáles como “lastres” en la economía de las Comunidades
Autónomas.
Hemos calculado la matriz de correlación utilizando los datos desagregados por Comunidades Autónomas. El objetivo es medir la fuerza de la relación lineal entre el peso de cada sector y la variable objetivo: Total Actividades (Coste medio total).
Los resultados dividen la economía en dos bloques matemáticos:
Correlaciones Positivas (Cercanas a 1 - Motores de Riqueza): Observamos correlaciones fuertes y positivas en sectores como “Información y comunicación” y “Actividades Profesionales”. Matemáticamente, esto significa que cuanto mayor es el peso de estos sectores en una región, mayor es su sueldo medio total.
Correlaciones Débiles o Negativas (Cercanas a 0 - Lastres):
Sectores como “Agricultura” o “Manufactura” muestran correlaciones bajas
o incluso negativas con el coste total. Esto implica que una
especialización excesiva en estas áreas no contribuye estadísticamente a
elevar la media salarial de la región.
Para visualizar cómo se agrupan las regiones según su “ADN
económico”, aplicamos un Análisis de Componentes Principales (PCA). Este
algoritmo reduce la complejidad de todos los sectores a menos
dimensiones, permitiéndonos ver qué regiones se parecen entre
sí.
El gráfico resultante es un mapa de la “Doble España”:
Los Vectores de la Modernidad: Fíjense en las líneas (vectores) que apuntan hacia la derecha: corresponden a Finanzas, Información y comunicación y Profesionales y científicas. Estos son los sectores que “tiran” de la economía hacia el cuadrante positivo.
El Clúster Rico: Madrid, Navarra y País Vasco aparecen aisladas en el extremo derecho, alineadas perfectamente con la dirección de esos vectores de alto valor. Su posición no es casualidad; es la consecuencia matemática de su estructura.
El Clúster de la Dependencia: En el lado opuesto
(izquierda), encontramos agrupadas a regiones como Extremadura,
Castilla-La Mancha o Andalucía. Estas regiones están “lejos” de la
influencia de los vectores tecnológicos, quedando relegadas
estructuralmente en el mapa de la eficiencia.
Finalmente, para responder a la pregunta de si la brecha es
coyuntural o estructural, hemos usado un modelo ARIMA sobre las series
temporales de coste laboral por hora, para España y para
Canarias.
El modelo proyecta el comportamiento para los próximos 5 años con intervalos de confianza del 95%.
Lo más alarmante es la divergencia de las áreas sombreadas (intervalos de confianza). Las proyecciones no se tocan; se separan. El modelo matemático predice que, si la estructura sectorial no cambia, la brecha salarial no se cerrará por inercia, sino que tenderá a cronificarse o ensancharse. Canarias no está convergiendo hacia la media nacional; estadísticamente, se está desacoplando.
Para garantizar que las conclusiones extraídas del apartado de modelado son robustas y no fruto del azar, hemos sometido a los modelos predictivos a una evaluación de desempeño mediante la métrica RMSE (Root Mean Square Error). Esta métrica cuantifica el error promedio de la predicción expresado en las mismas unidades que la variable objetivo (Euros por hora).
Los resultados obtenidos validan una alta fiabilidad en las proyecciones:
Serie España: El algoritmo seleccionó un modelo <ARIMA(1,1,0) w/ drift>. El RMSE obtenido es de 0.35, lo que indica que el error promedio del modelo es de apenas 35 céntimos de euro sobre el coste real.
Serie Canarias: Se ajustó un modelo <ARIMA(0,1,1) w/ drift>. El RMSE es de 0.42, implicando un margen de error de 42 céntimos.
Considerando que los costes laborales oscilan entre los 20€ y 30€, errores inferiores a 0.50€ representan una desviación mínima. La presencia del componente drift (tendencia) en ambos modelos, junto con estos bajos niveles de error, confirma estadísticamente que la divergencia futura observada en las gráficas no es ruido estadístico, sino una tendencia estructural sólida y predecible. Podemos confiar en que, sin cambios externos, la brecha salarial seguirá el camino trazado.
El valor de un proyecto de Ciencia de Datos no reside solo en las
conclusiones estáticas de una memoria, sino en la capacidad de entregar
herramientas que permitan a otros usuarios explorar, verificar y
descubrir nuevos patrones. Por ello, el producto final de este trabajo
es un Cuadro de Mandos Interactivo (Dashboard) desarrollado con
flexdashboard y Shiny.
Esta herramienta no es una simple galería de imágenes; es una aplicación web reactiva que permite al usuario navegar por todo el ciclo de vida del dato, desde la exploración visual hasta la predicción algorítmica.
A continuación, se detallan los módulos funcionales que componen el aplicativo:
Este módulo permite analizar la evolución histórica de cualquier indicador disponible en el dataset.
Funcionalidad: El usuario puede seleccionar indicadores (ej. Coste Laboral), unidades y regiones específicas.
Visualización Flexible: Ofrece dos modos de visualización:
Diseñado para identificar patrones territoriales y desigualdades geográficas.
Visión Macro y Micro: Permite visualizar el mapa completo de Europa (NUTS 0) para cualquier año e indicador.
Drill-down Regional: Incorpora una funcionalidad avanzada de “profundidad”. Al seleccionar un país concreto en el filtro, el mapa se redibuja automáticamente para mostrar la granularidad interna de ese país (regiones NUTS 1/2). Esto es fundamental para observar las diferencias internas, como la brecha Norte-Sur en España o Italia.
Este módulo permite al usuario actuar como analista, cruzando libremente cualquier variable del dataset (Eje X vs. Eje Y) para detectar correlaciones.
Transformaciones Estadísticas: Dado que los datos económicos suelen presentar asimetrías, el dashboard permite aplicar transformaciones matemáticas en tiempo real sobre los ejes, incluyendo escalas logarítmicas y la transformación de Yeo-Johnson, esencial para normalizar distribuciones complejas.
Correlación Sectorial: Permite cambiar el foco de “Regiones” a “Sectores”, visualizando cómo interactúan las distintas ramas de actividad económica entre sí.
Integra los modelos de Machine Learning desarrollados en el proyecto para proyectar el futuro.
Forecasting a la Carta: El usuario puede seleccionar cualquier región y métrica para generar una predicción a 5 o menos años vista.
Transparencia del Modelo: El dashboard no es una “caja negra”; muestra dinámicamente el ajuste del modelo (línea roja discontinua vs. real), calcula el error RMSE en tiempo real y especifica qué hiperparámetros ARIMA \((p,d,q)\) han sido seleccionados automáticamente por el algoritmo.
Ventana Deslizante: Permite ajustar el año de inicio de los datos de entrenamiento para verificar cómo se comportaría el modelo en distintos periodos históricos.
Dedicada al análisis multivariante para entender la composición sectorial.
Granularidad: Permite alternar el análisis entre Países Europeos y Comunidades Autónomas.
Herramientas Avanzadas: Incluye visualizaciones de la Matriz de Correlación (Heatmap), varianza explicada y la proyección de los Componentes Principales (PCA), permitiendo identificar visualmente los clústeres de regiones ricas vs. regiones dependientes.
El desarrollo se ha regido por principios de usabilidad y robustez técnica:
Lógica Condicional (Reactive Logic): El cuadro de mandos es “inteligente”. Los selectores están encadenados lógicamente para evitar errores; por ejemplo, si el usuario selecciona el indicador “Horas Trabajadas”, el selector de unidades ocultará automáticamente la opción “Euros”, mostrando solo las unidades temporales válidas. Esto asegura la coherencia de los análisis generados.
Interactividad Total: Todos los gráficos (generados con plotly y highcharter) son interactivos, permitiendo hacer zoom, paneo y consultar valores exactos mediante tooltips al pasar el ratón, facilitando la exploración de datos densos.
Este despliegue garantiza que las conclusiones del estudio sean reproducibles, auditables y extensibles por cualquier interesado en la economía regional europea.
Adicionalmente, se ha configurado el repositorio para desplegar la versión compilada de la memoria (HTML) a través de GitHub Pages. Esto actúa como un release estable del documento narrativo. A diferencia del dashboard, que requiere un servidor de cálculo activo (R), esta versión estática permite que cualquier usuario con el enlace pueda acceder a la lectura completa del informe, los análisis y las gráficas interactivas desde cualquier dispositivo móvil o de escritorio, garantizando la pervivencia y universalidad de los resultados del proyecto.
Este estudio se planteó con el objetivo principal de determinar si la baja remuneración en Canarias y España obedecía a factores de intensidad laboral o a causas estructurales. Tras completar el ciclo de análisis de datos (ETL, Visualización y Modelado), se exponen los siguientes hallazgos vinculados a las hipótesis iniciales:
Los datos son concluyentes al descartar la falta de intensidad laboral como causa de la pobreza relativa.
A nivel europeo, se ha demostrado una correlación inversa entre horas trabajadas y coste laboral (pendiente negativa con una alta correlación en la regresión lineal).
Específicamente en el caso de Canarias, la serie temporal (2000-2023) evidencia que la región mantiene un promedio de horas anuales por empleado sistemáticamente superior a la media de la UE. Por tanto, la brecha salarial no se justifica por un menor presencialismo.
Se confirma que la estructura productiva es el factor causal de la desigualdad regional.
El análisis de correlación y PCA agrupa matemáticamente a las regiones ricas (Madrid, País Vasco) con los vectores de Finanzas y TIC, y a las regiones rezagadas con Hostelería y Agricultura.
El hallazgo más crítico es la identificación de una “penalización insular del talento”. La brecha salarial Canarias-Europa es mucho más profunda en sectores de alto valor añadido (Profesionales y Científicas, Información) que en sectores de servicios básicos. Esto indica que el modelo económico actual de las islas devalúa la cualificación técnica, incentivando la fuga de cerebros.
Contrario a las teorías de convergencia, los modelos predictivos (ARIMA) y el análisis de la brecha histórica muestran un desacople estructural. Tras las crisis de 2008 y 2020, la distancia entre los salarios canarios y la media nacional no se está cerrando, sino que se cronifica.
Para una correcta interpretación de estos resultados, es necesario reconocer las restricciones inherentes a los datos y la metodología empleada:
Naturaleza del Indicador (Coste vs. Salario): El estudio utiliza el Coste Laboral Total (que incluye cotizaciones sociales e impuestos a cargo del empleador) como proxy de riqueza. No se ha analizado el Salario Neto, por lo que las diferencias en la presión fiscal entre países podrían matizar la brecha de poder adquisitivo real de los trabajadores.
Falta de Granularidad en Horas: Eurostat no ofrece datos abiertos de Horas Trabajadas desglosados por sector específico para todas las regiones NUTS 2. Esto ha impedido calcular la eficiencia exacta (euros/hora) dentro de cada sector específico en Canarias, obligando a trabajar con promedios agregados regionales.
Efecto de la Economía Sumergida: Al basarse exclusivamente en fuentes oficiales (INE, Eurostat), el análisis no captura el impacto de la economía informal, que podría tener un peso desigual entre las distintas comunidades autónomas analizadas.
Aunque este proyecto ha logrado diagnosticar con éxito las causas estructurales de la brecha salarial, el proceso de análisis ha revelado nuevas preguntas y limitaciones en los datos públicos que abren líneas interesantes para futuras investigaciones:
Del Coste Empleador al Bolsillo del Empleado: Los indicadores utilizados en esta memoria reflejan el Coste Laboral (lo que paga la empresa, incluyendo cotizaciones e impuestos), no el salario neto que percibe el trabajador. Dado que la fiscalidad (la “cuña fiscal”) varía enormemente entre países europeos, una extensión natural de este trabajo sería cruzar los datos de coste con la estructura impositiva de cada país. Esto permitiría analizar la brecha en términos de poder adquisitivo real, verificando si la diferencia de riqueza percibida por las familias es aún mayor que la sugerida por los costes empresariales.
Perspectiva de Género: La estructura sectorial tiene un fuerte impacto en la brecha de género, dado que existen sectores muy masculinizados (Industria) y feminizados (Cuidados/Servicios). Una evolución necesaria de este estudio sería desagregar los datos por sexo para determinar si la “trampa de bajo valor” en regiones como Canarias penaliza doblemente a las mujeres, o si la precariedad es transversal.
Mayor Granularidad Sectorial: La mayor limitación técnica encontrada ha sido la falta de disponibilidad en fuentes públicas (Eurostat) de las variables Horas Trabajadas y Coste por Persona Empleada desagregadas por sector. Actualmente, solo el Coste por Hora ofrece ese nivel de detalle. Un trabajo futuro debería enfocarse en integrar otras fuentes estadísticas (como la Encuesta de Población Activa - EPA - microdatos) para reconstruir estas métricas. Poder calcular las horas exactas que se trabajan en “Hostelería” frente a “Finanzas” permitiría afinar el modelo de eficiencia y entender mejor la carga laboral real de cada profesión.
Para la realización de este proyecto se ha llevado a cabo un registro detallado de la actividad, permitiendo cuantificar el coste temporal real de cada fase del ciclo de vida de los datos. Las siguientes visualizaciones desglosan el total de horas invertidas, su distribución semanal y, lo más relevante, la carga de trabajo por etapa (preparación, modelado, despliegue).
TOTAL HORAS TRABAJADAS EN EL PROYECTO : 65.28
DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO